#Arm CPU
繞開禁令!Arm CEO:AGI CPU可對華銷售!
4月2日消息,據《中國日報》近日報導,總部位於英國的Arm公司首席執行長Rene Haas在接受線上採訪時表示,其最新發佈的資料中心中央處理器Arm AGI CPU將可在中國市場銷售,並且該公司也正打算這樣做。Rene Haas進一步指出:“我們今天沒有任何可以公開談論的客戶。但我們預計這種產品在中國的需求與世界其他地區一樣強勁。”3月24日,Arm公司首次突破了其原有的產品矩陣和商業務模式,將產品矩陣延伸至量產晶片產品領域,正式發佈了一款由 Arm 自主設計、面向人工智慧 (AI) 資料中心的CPU——AGI CPU,旨在滿足日益增長的代理式 AI (agentic AI) 工作負載需求,網際網路巨頭Meta已經確認將是AGI CPU的首批客戶。據介紹,AGI CPU基於台積電3nm製程,由兩個小矽片組合而成,整合了 136 個 Arm最新的Neoverse V3 核心,每個核心配備 2 MB 二級快取,主頻3.2 GHz,最高頻率3.7 GHz,每線程獨立核心,可在持續負載下提供確定性性能,避免降頻與線程閒置。在記憶體和介面支援方面,AGI CPU支援 12 通道 DDR5 記憶體,最高可達 8800 MT/s,可提供超過 800 GB/s 的總記憶體頻寬,或每核心 6GB/s的頻寬,延遲低於100ns。I/O包含96條PCIe Gen6通道,並原生支援CXL 3.0以實現記憶體擴展和池化。整個晶片的TDP在300瓦左右。Arm表示,基於AGI CPU每個伺服器機架的性能超過x86平台的兩倍,並且每1吉瓦基於Arm AGI CPU的AI 資料中心算力的資本支出 (CAPEX) 相比x86 CPU平台可節省高達 100 億美元。需要指出的是,Arm公司曾在2023年8月披露的IPO招股書中表示,其Neoverse 系列處理器當中的高端處理器IP對華出口需要美國和英國的許可,但這種許可證可能很難獲得。Arm指出,其“Neoverse 系列處理器中性能最高的處理器IP達到或超過了美國和英國出口管制制度下的性能閾值,從而在出口和交付給中國客戶之前觸發了出口許可證要求。” “鑑於對運往中國的 HPC 技術的國家安全擔憂更高,而且政府的響應時間表尚未確定,獲得此類出口許可證可能具有挑戰性且不可預測。”當時Arm Neoverse 系列處理器中性能最高的處理器IP則是Neoverse  N2/V2,顯然Arm隨後推出的Neoverse  N3/V3 IP也是會受到英國的出口管制,使得其無法對華出口。但是,Arm最新推出的ArmAGI CPU雖然也是基於高端的Neoverse  V3 IP,但是它是一個完整的CPU晶片,因此該晶片對華出口並不會違反針對Arm Neoverse IP的出口禁令。這或許也是為什麼Arm CEO Rene Haas說,AGI CPU將可在中國市場銷售的原因。 (芯智訊)
既當裁判又當選手,Arm推出136核CPU給輝達氣瘋了
既當裁判,又當選手的現實上演了。就在前兩天,一直穩坐幕後的架構大佬 ARM 終於拋出了一枚震撼全球的重磅炸彈:他們不再只賣設計圖紙了,而是歷史上首次親自下場造晶片,推出了首款專為資料中心設計的 Arm AGI CPU。Arm 大夥兒應該不陌生了,作為掌控著全球 90% 以上移動處理器 CPU 的架構基座,一直靠著賣架構和指令集授權賺得不亦樂乎。那為何要從「包租公」轉化為「實業家」呢?答案很簡單,眼紅。根據 Arm 2026 財年(Q4 為官方指導值)的收入來看,全年營收 49 億美元(約合人民幣 338 億元)。看起來不少了是吧?來看看隔壁 NVIDIA,其 2026 財年的營收已經衝到了恐怖的 2159.38 億美元(約合 1.56 兆元人民幣),毛利率更是飆到75.5%,這已經跟印錢沒啥區別了。這意味著辛辛苦苦設計了一年,還不到人的 2%。更扎心的是,NVIDIA 賣得火熱的 Grace CPU 裡面用的還是 ARM 的技術。這讓 Arm 實在是有點想不通,不過在 AI 大模型競賽時期,主要依靠 GPU 平行算力為主導的。在這個行業,NVIDIA 可以說是隻手遮天,並且隔壁 AMD 和 intel 也不是吃素的,Arm 壓根擠不進去。但火遍全網的龍蝦(OpenClaw)AI 智能體讓 AI 行業的風向開始發生改變了。大夥兒逐漸意識到,縱使大模型再強,也只能動動嘴皮子,它沒有綜合性的執行能力,所以 AI 智能體就這麼火了。這個大家也熟悉,如果把大模型當做大腦,那 AI 智能體(Agentic AI)就是腦幹和肢體。讓 AI 能開始擁有自主生產力了。所以這種變化也就對硬體要求發生了改變,以前 AI 只需要 GPU 的「暴力計算」,但現在的「龍蝦們」需要頻繁地做邏輯判斷、任務編排、多系統呼叫——這些都是 CPU 的強項。看到這,Arm 表示,機會來了。正式推出了咱們開頭的提到的 AGI CPU。簡單過一下參數。AGI CPU 採用台積電 3nm 工藝製造,採用 Neoverse V3 核心,單顆晶片可以整合最多 136 核。單顆核心之間記憶體頻寬達 6 GB/s,延遲低於 100ns,最高 6 TB 的單芯記憶體容量,支援 DDR5-8800 規格。具備 96 條 PCIe Gen 6 通道,支援 CXL 3.0 和 AMBA CHI 互連。TDP 為 300W。看不懂沒關係,咱們做個簡易表把隔壁 intel、AMD 都拉過來簡單對比一下核心數和功耗。雖然性價比和核心性能都不是最突出的,但它有兩個優點,一是專門針對SVE2單元,在處理 Agentic AI(代理式 AI) 常見的決策樹、輕量化推理和多工編排時,其每瓦特性能表現極佳。第二點就是 TDP,雖然 300W 對於 Arm 來說是非常高了,但對比隔壁的 intel 和 AMD 動輒 500-600W,還是要涼快不少。稍微瞭解的同學就知道,散熱和電力對於資料中心來說,是佔營運支出的大頭,一般要佔到 60% 以上(含電力運轉)。所以 Arm 官方也囂張地喊出其方案每機架的性能比傳統 x86 高出 2 倍以上,因為能塞下更多的處理器。這意味著對於像 Meta 這樣規模的巨頭,建設一個吉瓦級的 AI 資料中心,改用 ARM 方案能省下整整 100 億美元(約合人民幣 723 億元)。當然了,除了 x86,最受傷的莫過於是基於 Arm 的 Neoverse V3 開發的「友商們」了,這其中就有 NVIDIA。拿 NVIDIA 剛發佈深度定製的 Vera CPU(88核心)來說,核心規模上就要壓上一頭,雖然不敵 NVLink 以 1.8 TB/s 的速度和 GPU 交換資料,但 NVIDIA這個屬於「閉源」,意味著你買了它的 CPU,就得買它的 GPU,消費選擇給限制了。而Arm支援CXL 3.0 和通用 PCIe Gen 6,這意味著它能和 Meta 的 MTIA 加速器、OpenAI 的自研晶片相配合。如果單看規模的話,亞馬遜的 Graviton5 擁有 192 個 Neoverse V3 核心,似乎更大,但人壓根不賣,你只能在它的雲伺服器裡租著用。同樣用著同款核心微軟的 Azure Cobalt 200,不過是定製款,是專門為 Azure 雲服務最佳化。所以,大夥兒能看出來,之前的 Neoverse V3 被雲巨頭拿過去後都是放在自己的「後花園」用,現在 Arm 直接把圍牆拆了,大家都可以買。算是給自家盟友來了一刀。看到這可能有同學要說了,那跟咱們普通人有什麼關係?當然也有。首先是對傳統 x86 CPU 的衝擊,在市場一定的前提下,AGI CPU 勢必也會吃掉一部分傳統通用計算 CPU 市場,從而倒逼 intel、AMD 進行快速的技術迭代和工藝升級,而這些技術也會輻射到消費級 CPU 領域,例如 AMD 的 3D V-Cache 技術。其次就是「養龍蝦」會變得更便宜、更聰明。當雲巨頭們或者更多的入局者大規模部署這種 AGI CPU 後,我們使用的模型、國內的各類智能體工具,響應速度會成倍提升。那些複雜的「個人私人秘書」功能將從雲端下放到更廉價的伺服器甚至你的個人裝置上。不過這一切都建立在AI持續爆火並有大廠不斷投入和內卷的基礎上。至於什麼時候能實現「養蝦自由」,還很難說。咱們就拭目以待吧。 (電手)
毛利率98%的ARM,想換個姿勢“躺著賺錢”
一切跟算力有關的產品,產能都遭遇到了AI需求的擠佔,過去是儲存,現在輪到CPU。目前,英特爾、AMD都在推動產品漲價,漲幅在10%-15%之間。“聽說CPU的提貨周期已經延長到8個月了。”一位長期跟蹤儲存產業的研究員援引知情人士的消息說。在這種背景下,ARM決定入局CPU晶片自研,注意不是GPU自研。“我要明確表態——我們現在進入了一個對ARM而言全新的業務領域,我們正在供應CPU。”當地時間3月24日,ARM CEO雷內·哈斯(Rene Haas)在一場官宣的發佈會上說。ARM首顆AGI CPU晶片。圖片由AI生成根據ARM提供的資料,其首顆自研AGI CPU搭載136個ARM Neoverse V3核心,每核心提供6GB/s記憶體頻寬、低於100納秒的訪問延遲,熱設計功耗為300瓦;單個風冷機櫃最高可容納60顆CPU,即8160個核心,若採用液冷方案,總核心數可以突破45000個。ARM AGI CPU採用台積電3奈米工藝製造,由兩塊芯粒封裝而成,作為一顆完整晶片協同運行。ARM強調,相較於同類x86晶片,每機櫃性能功耗比提升超過兩倍,每吉瓦AI資料中心容量可為客戶節省高達100億美元的資本支出。目前晶片已完成測試,計畫於2026年下半年進入量產。01 98%毛利率不香了?ARM的“IP授權”模式鏈路清晰,設計晶片架構,將智慧財產權授權給蘋果、輝達、高通等公司,然後坐收授權費和版稅。不要工廠,不需要生產線,毛利率高達98%,屬於全行業最高水平之一。有分析師將這種模式稱為“躺著印錢”——每一顆搭載ARM架構的晶片出貨,這家公司都能分到一筆錢,全球迄今出貨量超過3250億顆。那麼,哈斯為什麼要放棄這個近乎完美的模式?財報裡已有訊號。ARM最新一個財季的營收達到創紀錄的12.4億美元,同比上漲26%,連續四個季度單季破10億美元,其中版稅收入(晶片出貨分成)增長27%,但由於5.05億美元的許可收入(IP授權)低於分析師預期的5.19億美元,市場立即作出負反饋——其股價盤後下跌超過5%。晶片出貨分成相關的版稅收入屬於滯後指標,許可則是領先指標,反映客戶願意為下一代技術預付多大的賭注。許可收入的波動,讓投資者很難為ARM的AI故事建立穩定的估值模型。ARM必須回答一個問題:增量訂單在那裡?所以,被動等待IP授權許可,不如直接下場自研出售晶片,將收入結構從“等單上門”轉變為持續的硬體銷售流水,創造可持續、規模化、可預測的硬體收入。當然,代價則是98%這種超高毛利率被侵蝕。可以這樣理解,ARM的轉向是在IP授權模式觸及天花板之前,主動規劃第二增長曲線。02 ARM伺服器CPU“站起來了”ARM架構的伺服器CPU,靠譜嗎?輝達已給答案。2021年GTC,輝達就推出了ARM架構的Grace CPU,並搭配Blackwell GPU在大量資料中心部署,新一代的Vera CPU也已經量產。此次ARM的發佈會上,黃仁勳親自發視訊祝賀,稱雙方合作近二十年,ARM的適應性使輝達得以將其整合至“全平台、全AI階段”。之所以請黃仁勳來站台背書,ARM也就是想強調其解決方案已經被市場上最成功的AI晶片公司用實際銷售額反覆驗證。現在自己下場,某種程度上只是“去掉了輝達這個中間商”,將原本版稅分潤的收益,以硬體利潤的形式收入囊中,在自己的商業模式中完成了閉環。事實上不僅是輝達,全球主流雲廠幾乎都在轉向ARM架構伺服器CPU:亞馬遜AWS的Graviton 5搭載192個ARM核心,2025年AWS新增算力中大多數由其驅動;微軟Azure的Cobalt 200擁有132個核心。這些公司已在ARM架構上投入了數十億美元的研發資源,建構了龐大的軟體生態。ARM對伺服器CPU市場的影響,剛剛正在從專利,轉向生態。03 GPU為CPU“帶貨”站在市場的邏輯,GPU的暴增和AI晶片自研的陣營越來越大,不僅加大了對HBM記憶體的需求,也帶來了CPU需求的增長。騰訊科技此前給了一個資料——2026年台積電的CoWoS晶圓產能是1150000片。按雙Die晶片總面積1500mm²、80%良率估算,全年可產出約4324萬顆GPU晶片。若按每8顆GPU搭配2顆CPU的比例,4324萬顆GPU共需要1081萬顆CPU。注意,這1000多萬顆對應的是AI伺服器的需求,不包含通用伺服器,由於英特爾、AMD已經供不應求了,所以這是文章開頭提到的漲價的邏輯,也是提貨周期變長的原因。行業研究機構Futurum Group將這一現象稱為“悄然而至的供應危機”,並預測到2028年CPU市場增速將超越GPU。ARM下場做AGI CPU,著重強調了自己與x86架構的優勢——每機櫃性能功耗比是同類晶片的兩倍,並表示每吉瓦AI資料中心容量可節省高達100億美元的資本支出。這對於Meta、微軟、Google這些正在大手筆建設資料中心的超大規模雲廠商而言,存在巨大的吸引力。Creative Strategies預測,資料中心CPU需求將從2026年的250億美元增長至2030年的600億美元;若疊加AI智能體的需求,這一數字將接近1000億美元。即便ARM只能拿下其中一個零頭,也足以支撐哈斯描繪的財務藍圖。04 先和Meta抱團“造芯”祖克柏和他的Meta雖然在這一代模型上掉進了大坑,但一直在算力市場玩的風生水起,又是賣卡又是自研,不久之前也公佈了新一代MTIA晶片。ARM下場做AGI CPU,也選擇了和Meta抱團:一方面當客戶,一方面作為聯合開發者。Meta軟體工程師保羅·薩阿布從2023年項目啟動之初便全程參與晶片設計。他解釋了Meta入局的動機:“在當今世界,真正的玩家屈指可數。這為我們的生態系統又增添了一個新選擇。”根據財報電話會議的資料,Meta今年資本支出高達1350億美元,正在路易斯安那、俄亥俄、印第安納等地大規模建設AI資料中心,僅路易斯安那州的“Hyperion”超級資料中心裝機容量就達5吉瓦。不過,在此前,Meta的CPU幾乎完全依賴英特爾和AMD。多一個ARM可選項,就多一條供應鏈、多一個議價籌碼。薩阿布直言:“我們不是晶片公司,我們希望它能面向全世界開放。”Meta之外,OpenAI、Cloudflare、SAP、SK電信、Cerebras也相繼確認為早期客戶。AWS、Google、微軟、輝達、三星電子、台積電等超過50家公司為ARM站隊。資深晶片行業研究員穆爾黑德強調:如果ARM能拿到Meta未來年度資本支出的5%,就已經是“改變遊戲規則”的量級,而Meta只是其客戶名單中的第一個。05 五年250億美元下場自研AGI CPU,在哈斯的財務藍圖中:ARM預期五年內,年營收達到250億美元,約為當前的五倍,其中AGI CPU貢獻約150億美元,傳統IP授權業務翻倍貢獻約100億美元。雖然在CPU漲價潮下官宣自研,但ARM早在2023年就已秘密啟動晶片研發。外媒報導顯示,當時ARM拿出了7100萬美元在德克薩斯州奧斯汀建立專屬晶片實驗室,從一支曾經規模極小的團隊壯大至逾1000名工程師。只不過,雖然有IP護城河以及輝達等在ARM伺服器CPU市場的驗證,硬體業務要面臨包括供應鏈管理、客戶服務、競爭響應等在內的諸多問題,每一項都是ARM從未系統性面對過的挑戰。另外,作為對手,英特爾和AMD也不會坐視增量市場份額被搶走,x86陣營數十年積累的軟體生態和客戶慣性,依然是ARM需要逐步攻克的壁壘。好在整個市場的需求不斷地被AI推高,只要產品被客戶驗證可靠,再加上它還沒有GPU這樣的出口管制,最終產品可以在全球市場裡“暢通無阻”。現在的ARM,最在意的可能是台積電的量產交付能力了。 (騰訊科技)
打破30年IP模式!剛剛,Arm自研CPU發佈:3nm+136核!
重磅!Arm CPU 路線圖公開發佈剛剛,歷史性突破!Arm發佈三十多年來首顆自研專用CPU——Arm AGI CPU。打破長期IP授權模式,直擊AI算力剛需,劍指x86陣營。核心參數拉滿:3nm工藝,136核Neoverse V3核心。主頻3.2-3.7GHz,300瓦功耗,雙Chiplet封裝(台積電代工)。快取亮眼:2MB L2/核心,128MB共享SLC。介面拉滿:96條PCIe 6.0,支援CXL 3.0,12通道DDR5,總頻寬825GB/s。極致能效!放棄同步多線程,剔除冗餘功能。每瓦性能碾壓英特爾、AMD最新x86晶片,號稱“最高效agentic CPU”。強強聯手!與Meta聯合開發,Meta為首個客戶。OpenAI、SAP等巨頭已確認採購,商業化勢頭強勁。量產明確:今年下半年全面量產,中國是重要目標市場。巨額投入:斥資7100萬美元,耗時18個月新建實驗室。伺服器方案雙選擇:風冷36kW(8160核)、液冷200kW(超45000核)。定價具競爭力,可直接替代Meta現有計算CPU。行業震動!打破Arm中立定位,衝擊x86陣營格局。Arm高管表態:此舉核心是滿足客戶需求,有望帶來數十億美元收入。AI時代算力革新,Arm正式從IP授權商,躋身自研晶片賽道。全新Arm AGI CPU核心亮點高性能 CPU:採用 Armv9.2 架構,Arm AGI CPU 最高整合 136 個 Neoverse V3 高性能核心,每核配雙 128 位 SVE2 單元,支援 bfloat16/INT8 AI 加速。全核主頻 3.2GHz,睿頻 3.7GHz。高記憶體頻寬:單核心記憶體頻寬最高 6GB/s,緩解高吞吐 AI 負載的記憶體瓶頸,提升 AI 與雲端系統性能。先進 I/O 與加速器互聯:支援 96 路 PCIe Gen6、CXL 3.0 及 AMBA CHI 擴展鏈路,實現大規模異構計算。企業級安全架構:面向多租戶雲與 AI 基礎設施提供硬體級安全,包含根安全引擎、指針認證、分支目標間接保護。 (芯榜)PDF文件:https://www.arm.com/static/az/pdf/product-brief/arm-agi-cpu-product-brief.pdf
黃仁勳大舉「殺入」CPU
輝達大動作!小型模型推動CPU需求回升一、輝達發力伺服器CPU:契合AI方向在AI領域憑藉GPU佔據優勢的輝達,正大舉進軍CPU市場。近期,輝達與Meta擴大多年資料中心協議,除提供數百萬個Blackwell和Rubin GPU外,還將首次大規模部署僅搭載輝達Grace CPU的伺服器,Grace CPU可與Blackwell GPU搭配組成AI超級晶片,彰顯其進軍伺服器CPU的決心。輝達進軍CPU的意圖早有顯現,2020年曾計畫以400億美元收購Arm,後因監管被叫停。Arm上市後,輝達曾持有其股份,近期雖出售全部持股,但仍作為Arm客戶和合作夥伴,為Grace、Vera CPU授權使用其智慧財產權。此舉順應AI行業趨勢:大型AI模型仍依賴GPU,但小型模型推動CPU需求回升,CPU在AI資料處理、多模態解碼中作用凸顯,也是AI供應鏈瓶頸之一,推出自研CPU有助於輝達維持銷售、提升資料中心產品附加值。這對主導伺服器CPU市場的英特爾、AMD構成衝擊,尤其英特爾正面臨產能不足的困境。二、佈局PC晶片賽道,物理AI動作頻頻除伺服器領域,輝達也瞄準PC晶片市場。受蘋果M系列晶片成功啟發,其自研筆記型電腦SoC晶片(整合CPU與GPU)將於今年搭載於戴爾、聯想等產品,採用台積電3nm工藝,目標指向高性能遊戲本和緊湊型桌上型電腦,未來還將推出新一代處理器。點選看:黃仁勳大舉增持諾基亞目前,輝達正與PC廠商、英特爾、聯發科合作,但Arm架構相容性仍是其面臨的挑戰。輝達拓展CPU領域,既是應對行業競爭、鞏固市場地位的舉措,也面臨傳統巨頭與新興勢力的雙重競爭。此外,市場對AI的質疑加劇,其股價已橫盤數月,增長勢頭放緩,疊加行業焦慮情緒上升,輝達的跨界之路仍有挑戰。總體而言,晶片行業正進入新的混戰時代。 (深科技)
吉姆·凱勒新作!性能最強RISC-V CPU來了,叫板輝達Arm
前蘋果晶片大神新作,專為高性能計算而生。今日,美國AI晶片企業Tenstorrent推出高性能RISC-V CPU——TT-Ascalon,宣告其性能超越當下所有市場上已有RISC-V CPU。該CPU適用於伺服器、AI基礎設施、汽車高性能計算(HPC)及高級駕駛輔助系統(ADAS)等廣泛場景。Tenstorrent產品戰略副總裁Aniket Saha談道:“RISC-V核心幾乎覆蓋所有應用,但此前一直缺乏真正的高性能產品。Ascalon填補了這一空白,作為專為先進計算設計的RISC-V CPU,具備完整的出口合規性和全球可用性。”▲Tenstorrent產品戰略副總裁Aniket Saha在講解產品Tenstorrent於2016年創立於加拿大,於2023年將註冊地和總部遷往美國,2025年由晶片產業傳奇人物、前蘋果A系列及特斯拉自動駕駛晶片主導研發人吉姆・凱勒(Jim Keller)出任CEO,其於2025年剛剛憑藉開放式芯粒架構(OCA)成為RISC-V生態核心參與者。該公司近期剛剛被傳出推進至少8億美元的新融資,目前已完成多輪累計超10億美元融資,估值達32億美元。投資者對Tenstorrent的興趣源自其被認為是撕開輝達集中市場一條口子的重要潛力,其已通過大量開源技術避免了使用輝達成本較高的頻寬記憶體(HBM)。回到Tenstorrent今日的最新發佈來看,Ascalon的架構具有多方面創新,其通過業界標準SPEC CPU基準測試驗證,單核性能達到22 SPECint 2006/GHz、>2.3 SPECint 2017/GHz和>3.6 SPECfp 2017/GHz,並可在Samsung SF4X工藝節點下實現>2.5 GHz主頻,展現了其強大的設計和在先進工藝節點上的可擴展性。▲TT-Ascalon架構性能情況據Tenstorrent RISC-V核心副總裁Divyang Agrawal介紹,該產品的一大特徵是完全相容RISC-V RVA23規範。軟體生態決定了開發者能實現什麼。那麼Ascalon架構的生態系統在那裡?如何確保它能融入整個RISC-V生態?RVA23配置檔案標準化了應用級處理器需實現的功能集,這將直接整合到軟體工具鏈中。通過標準化,它不僅支援各類標準、安全擴展,還支援最新的RISC-V向量擴展,這正是其CPU與AI產品線共同採用的一大核心技術。並且,Ascalon整合高性能RVV1.0向量引擎,支援硬體虛擬化、先進記憶體管理和高級中斷架構。此外,Ascalon還具備安全性和RAS(可靠性、可用性和可維護性)特性,包括側通道攻擊防護。在推出Ascalon的同時,Tenstorrent還宣佈Ascalon全面支援GCC、LLVM和Qemu,並已完成上游合入,開發者和客戶可立即部署使用。通過本次發佈,Tenstorrent確保為RVA23建構的軟體能在Ascalon及任何符合RVA23規範的處理器上無縫運行,為開發者提供可靠保障。▲Ascalon全面支援GCC等軟體生態Divyang Agrawal補充道:“通過Ascalon,我們為客戶提供了集高性能核心、系統IP、RVA23相容工具鏈和完整技術資料於一體的整體解決方案。這為客戶開發從高性能計算到機器人等計算平台提供了關鍵建構模組,助力開發者拓展RISC-V生態。”Tenstorrent在產品設計時的一大原則是:一個設計方案的最終實現形態,取決於其目標應用領域。因此,他們從一開始就通盤考量了基礎設施、工具鏈、設計方法學以及設計本身。其架構被設計為高度可配置和參數化。Tenstorrent同時強調IP設計要有遠見。擁有IP、一套可配置的參數固然重要,但這還不夠。Tenstorrent認為其還需要提供一套能夠立即部署的完整方案,Tenstorrent團隊希望強調的是其可擴展性。Tenstorrent提供了從單連接埠到最多8連接埠的可配置性,從單一核心擴展至最多包含八個核心、共享快取的叢集,並會持續演進。Ascalon連接埠被認為是Arm的重要替代選項。▲Tenstorrent提供了從單連接埠到最多8連接埠的可配置性最後,當晶片流片之後,晶片偵錯能力至關重要。Tenstorrent認為,在設計中嵌入強大的偵錯能力,並控製成本,這再次成為其區別於普通IP供應商的一個關鍵。目前市面上已有的開發平台,大多不允許開發者在上面進行真正意義上的高性能軟體開發。但Tenstorrent使得從高性能計算(HPC)到嵌入式設計的軟體開發成為可能。正如Divyang Agrawal所說,將所有要素整合,Tenstorrent提供的是一個完整的解決方案。▲Tenstorrent提供的是一個完整的解決方案在生態合作方面,Tenstorrent通過其Innovation License(創新授權)計畫,為合作夥伴提供自主創新的路徑,該計畫使合作夥伴能夠基於Tenstorrent技術建構差異化且自主可控的解決方案。同時,Tenstorrent已與CoreLab建立合作夥伴關係,推動區域客戶支援和設計最佳化,幫助客戶高效採用並快速部署其IP。此外,Tenstorrent還在今日與知名軟體定義汽車平台供應商AutoCore.ai達成戰略合作。Ascalon RISC-V處理器為後者的AutoCore軟體平台提供強大的算力支援,加速RISC-V在汽車領域的應用落地。 (芯東西)
30億裝置100億TOPS算力!解密Arm CPU最強AI黑科技
性能5倍暴漲背後,Arm晶片黑科技如何顛覆手機AI體驗?今天,AI正給整個手機產業帶來巨大影響和變革,從底層晶片到作業系統,再到上層應用生態,幾乎都在被AI重構。越來越複雜的模型、越來越強大的AI Agent,都對計算效率、延遲、功耗、記憶體頻寬等方面提出了新的挑戰。從蘋果到三星、聯發科、小米,手機晶片玩家們都在加速AI能力在晶片端的整合,上周蘋果剛剛發佈的A19晶片,直接在GPU的每一個核心中都塞入了一顆神經網路加速器。晶片底層技術創新,是加速端側AI落地、推動AI手機體驗升級的核心支撐。在這樣的行業趨勢下,晶片底層技術領域的核心玩家Arm再次向行業拋出一枚AI重磅大招。近日,Arm在上海正式亮出了旗艦級Arm Lumex計算子系統(CSS)平台,這也是Arm CSS平台的一次重要更名和升級。Arm Lumex包括新的CPU、GPU、DSU等模組,在性能、能效顯著提升的同時,突破性地將第二代可伸縮矩陣擴展(SME2)技術引入到CPU中,這也是這類技術首次在Android手機晶片中落地。而據筆者瞭解,蘋果晶片CPU中使用的仍然是第一代SME技術。Arm特別強調稱,這是一個完整的“AI優先”的平台。今天,AI正成為全行業瞄準的核心方向,而面向這一新時代,Arm的計算平台正成為AI與個人計算發展不可或缺的計算底座。此次Arm重磅技術升級背後有那些關鍵思考、對產業和消費者有那些價值和意義?我們將一起深入挖掘。01. CPU裝上“AI加速器” 攜手支付寶、vivo等企業讓端側AI從“能用”到“好用”AI手機經過近兩年的迭代,在發展方向和AI功能種類上已經基本達成行業共識。今天各家的重點毫無疑問是端側AI體驗的最佳化。在端雲結合的混合AI成為基礎模式之下,如何更高效地在手機上落地模型、如何在手機上實現更佳的AI應用體驗,成為需要行業共同破解的難題。縱觀Arm整場發佈會,AI是當下Arm技術迭代圍繞的核心主題,正如Arm高級副總裁兼終端事業部總經理 Chris Bergey所說,新的Arm Lumex是一個“AI優先”的平台。如何實現AI優先,Arm此次最核心的改進是將SME2技術引入了CPU中。在5倍性能提升、3倍能效提升這些亮眼數字的背後,Arm實際上在做的就是給CPU這一手機中最核心、通用性最強的模組配備新的矩陣加速器,讓AI時代的各類複雜計算變得更快、更省電,進而讓我們能在智慧型手機上獲得更好的AI體驗。目前,SME2這一技術已經獲得了阿里巴巴、支付寶、三星System LSI、騰訊、vivo等科技領域頭部企業的支援和採用。基於SME2技術,Arm與這些合作夥伴深度合作,已經在諸多AI應用中實現了直觀的升級。總體來看,這種AI體驗的升級最突出的特點就是讓AI功能從“能用”到“好用易用”前進了一大步。如何去定義“好用易用”呢?就是要讓裝置“更懂你”,且能“無縫響應”。手機行業的創新與競爭,是最貼近使用者應用場景的領域之一。過去捲攝影、快充等,是最佳化單點場景痛點;如今在AI時代,生成式AI應用以及AI與計算攝影、通訊、性能等各領域的融合成為焦點,其本質是用AI重構各場景價值,實現從“被動響應”到“主動服務”的轉變。我們在現場看到了一項“智能瑜伽教練”的演示,在演示中,AI教練可以快速流暢地將文字轉換為語音進行輸出,據稱其生成速度提升了2.4倍之多,這樣使用者就可以在健身過程中即時獲得姿勢反饋與指導,並且全程都不用擔心裝置的電池續航問題。▲智能瑜伽教練其實AI健身教練類似功能我們並不陌生,但讓AI真正能夠像真人一樣快速、精準、高效地與我們進行交流、互動,仍是產業持續努力的目標,Arm無疑將這一願景向現實推近了一大步。在Arm與支付寶和vivo的三方深度合作中,AI手機體驗的升級給我帶來了更多驚喜。支付寶端側AI引擎xNN整合了SME2技術,在vivo的旗艦智慧型手機上完成了基於Arm SME2技術的大語言模型推理驗證,在預填充與解碼階段,性能分別實現了超過40%和25%的提升,大語言模型互動響應時間縮短了40%。據稱,在SME2加持下,vivo手機實現了額外20%的性能提升。從應用效果來看,vivo手機在一些視覺、語音、文字等AI計算任務中,性能都實現了顯著加速,比如在全域離線翻譯這樣的真實場景中,AI響應時間明顯加快,讓整個翻譯的過程更加流暢自然。▲本地離線即時翻譯可以說,這些翻倍式的改善,都標誌著CPU後端能力的重大突破,證明了SME2可為終端裝置帶來更快的即時生成式AI體驗,端側AI的各類本地功能,都得到了顯著提升。再來看看使用者非常看重的計算攝影。搭載SME2單核心運行神經攝影機降噪功能,可以在1080P解析度下實現每秒120幀的超高影格率,即使在4K高解析度下,也能實現每秒30幀的影格率表現。這意味著,我們日常使用手機拍照,即使在光線昏暗的場景中,也可以拍出更加清晰、銳利的照片。縱觀此次發佈的產品和技術,從CPU、GPU到軟體庫的一系列升級,都讓我們看到了Arm Lumex在AI時代給廠商、開發者、消費者帶來的價值。而對於開發者而言,從軟體工具到生態層面的完善支援更能讓他們迅速將這些新技術與自身的產品相結合,將AI創新成果更快推向市場。根據Arm預測,到2030年,SME與SME2技術將為全球超過30億台裝置新增超100億TOPS的計算能力,端側AI性能呈現指數級提升。02. 深耕計算數十年,年均兩位數IPC提升用技術和生態領跑行業今天,我們看到Arm基於底層技術創新實現了移動裝置端側AI性能的大幅提升,實現這一切,一方面源於Arm的技術硬實力,另一方面也源於數十年來Arm在移動技術和生態領域的持續引領,在技術和產業發展的關鍵節點,Arm始終跑在前列。從技術演進來看,Arm對AI的佈局實際已持續十餘年:Armv8架構時代,通過最佳化NEON模組以提升AI效率;Armv9架構引入SVE2與SME以適配更多AI場景;到Armv9.3-A架構時代,整合SME2技術,最佳化現代AI工作負載的吞吐量、延遲與精度。Arm通過架構層面改進SoC設計,為AI應用的爆發提前蓄力。如今,智能裝置的海量爆發讓計算變得無處不在,從手機、PC、汽車到各類AIoT裝置,萬物智聯的趨勢變得愈發顯著。與此同時,產業對能效比的極致追求、對功耗的死磕、對大模型的支援最佳化、對AI算力的需求都成為行業共同面對的挑戰——Arm終於等到了AI的東風。回到手機行業,如果只是架構上的革新,還不足以跟上端側AI應用的步伐。ArmLumex計算子系統(CSS)平台給出了新的解題思路,它從系統性層面,整合搭載SME2技術的最高性能Arm CPU、GPU及系統IP,加速端側AI的落地和普及。軟體工具和生態層面,KleidiAI已經整合至所有主流移動作業系統及AI框架中。開發者能在各類Arm裝置上獲得最佳AI性能,無需進行任何額外操作。縱觀手機行業的發展,Arm一直跑在技術浪潮的最前沿。每一個版本更新都為行業注入新的活力,給行業玩家提供最堅實的底層技術“資源池”。Arm及其生態系統在奠定計算基礎方面所做的努力,讓行業能夠時刻把握新興的機遇。03.從手機PC到全生態,算力產業激變模式轉型構築“核心基石”今天,AI新浪潮正在快速席捲整個科技行業。終端大廠們紛紛“All in AI”,從產品到服務圍繞AI升級;大模型迭代從半年更、月更到今天的周更,競爭進入白熱化階段;底層晶片層,各路晶片廠商都在產品中密集融入AI新特性。從手機、PC、汽車、物聯網到資料中心,從十億級、百億級到兆級、數十兆級模型,AI正在快速重構各行業各領域,同時也給計算產業也帶來了新的挑戰和機遇。Arm顯然是在這股AI浪潮中行動頗為積極的一家。作為驅動AI應用的技術基石,不論是要快速上市兌現性能價值,還是要深度設計配置,從高端智慧型手機、PC到新興AI智能裝置,Arm總能幫助廠商找到峰值性能、持續能效與晶片面積之間的靈活平衡“甜點”。AI浪潮之下,曾深耕幕後的底層技術廠商正逐步走向台前,以核心技術重塑產業格局。全力衝刺AI的Arm,從技術到生態,從產品到服務,已經全面做好了準備。04.結語:打牢AI時代計算根技術端側AI提速今天,從Android到蘋果生態,端側AI的快速發展需要更多底層技術創新的支撐,AI應用體驗仍有較大提升空間,Arm Lumex的發佈,給行業提供了一套紮實的計算平台基礎,讓廠商和開發者們面對AI這場硬仗有更充足的彈藥。未來,AI手機之戰會愈發焦灼,晶片層的創新仍然會長期是行業競爭的焦點領域。從廠商到開發者,面對AI時代的機遇和挑戰,Arm生態已經成為AI創新的肥沃土地。 (智東西)
Arm已成功拿下全球25%資料中心CPU市場!
9月12日消息,受益於AI數據中心市場需求的快速增長,輝達成為了最大受益者,但是其也助力了Arm CPU在數據中心市場的份額的增長。根據市場研究機構Dell′Oro Group 最新報告,在今年第二季,Arm CPU 已經拿下服務器CPU市場25%的份額,相比一年前的15%增長了10個百分點。而推動這一成長的動力主要來源於採用了輝達自研的基於Arm架構的Grace GPU+Blackwell GPU的機架級計算平台出貨量的增長,例如GB200 和GB300 NVL72等。每台120 千瓦的GB300 NVL72 都配備了72 個Blackwell GPU 和36 個Grace CPU。這款72 核心晶片的機架方案於2022 年首次推出,其Grace CPU基於Arm Neoverse V2 架構,並利用輝達定製的NVLink-C2C 介面進行了優化,以最大限度地提高資料移動。Dell′Oro 分析師Baron Fung 表示,一年前Arm 的服務器市佔幾乎完全由AWS Graviton 等雲端服務大廠的自研服務器處理器驅動,如今輝達的Grace CPU 的收入規模已經能與其他雲Arm CPU廠商相提並論。雖然Arm CPU在資料中心市場的成長表現強勁,不過目前25%的市佔率仍低於Arm 基礎構架主管Mohamed Awad 設定的2025年底達到50%目標。不過,未來隨著更多晶片設計公司推出Arm服務器CPU,Arm 的市佔率仍有望進一步提升。目前輝達已著手研發新一代Arm 構架CPU“Vera”,將採用自研核心;同時,高通與富士通也在開發或更新的基於Arm架構的服務器CPU,且兩者均已通過NVLink Fusion 技術的認證,意味著未來可能會出現基於不同Arm CPU 的Superchip構架版本,而不僅限於輝達自家處理器。根據Dell'Oro 資料顯示,AI 擴張周期持續推升第二季伺服器與記憶零元件市場,年成長率將達44%,預期2025全年將再成長46%。與此同時,隨著AI 計算群集朝向乙太網絡絡發展,SmartNIC(數據處理單元)與DPU(數據處理單元)銷售額幾乎比去年翻倍。 Baron Fung 也指出,客製化AI ASIC 出貨量已達到與GPU 相當的規模,但GPU 仍佔據AI加速器營收的最大市場。 (芯智訊)